回帰分析(馬場康維) 1(全4回) 改訂版

統計数理研究所
30 Mar 201729:12

Summary

TLDRこの講座は回帰分析についての概要を説明しています。まず相関係数について解説していて、2つの変数間の関係の度合いを表す指標としています。次に最小二乗法による直線の当てはめ方と、その評価指標について説明しています。講座の後半では重回帰分析などについて解説する予定とのことです。

Takeaways

  • 📊 回帰分析についての講座が4回に分けて行われ、各回で異なるトピックについて30分ずつ話される。
  • 🔢 第1回目では、変数間の関係を示す指標「創刊」と回帰について解説される。
  • 📈 身長と体重の関係や企業の規模と従業員数など、2つの変数間の関係性について具体例が挙げられる。
  • 🔍 散布図を用いて変数間の関係を視覚的に示し、同時分布と周辺分布の概念について説明される。
  • 💡 平均、分散、共分散などの統計量が一変数および二変数の場合について解説される。
  • 📏 相関係数が変数間の直線的関係の強さを示す指標であること、およびその計算方法について説明される。
  • 🚫 相関が因果関係を意味するものではないという重要な注意点が強調される。
  • 📐 最小二乗法による直線の当てはめ方とその意義について詳しく解説される。
  • 🔑 回帰分析の良さの尺度である相関係数や寄与率について説明され、その計算方法が示される。
  • ❓ 身長から体重を予測する例を通じて、回帰分析の概念を実践的に理解することが促される。

Q & A

  • この講座のテーマは何ですか?

    -この講座のテーマは回帰分析です。

  • 回帰分析とはどのような分析ですか?

    -回帰分析は、2つの変数間の関係性を分析する手法です。相関関係があるかどうかを調べたり、一方の変数からもう一方の変数を予測したりすることができます。

  • この講座では具体的にどのような話題が扱われますか?

    -この講座では、相関関係、最小二乗法、単回帰、重回帰分析などの4つの主要な話題が扱われます。

  • 相関係数が0の時、変数間には関係がないことを意味しますか?

    -必ずしもそうとは限りません。相関係数が0でも変数間には関係がある可能性があります。グラフを描いて確認する必要があります。

  • 共分散と相関係数の違いは何ですか?

    -共分散は変数間の関係の強さを表しますが、単位に影響を受けます。一方、相関係数は-1から1の間の無次元の数値で、変数間の直線的な関係の程度を表します。

  • 最小二乗法とはどのような手法ですか?

    -最小二乗法は、実測データと予測直線との残差の二乗和を最小化するように直線の傾きと切片を求める手法です。データの分布に最も適合する直線を求めることができます。

  • 直線回帰の精度を判断する指標にはどのようなものがありますか?

    -相関係数rと残差の標準偏差sが指標としてよく使われます。rが大きいほど精度が高く、sが小さいほど精度が高いです。

  • データを標準化する意味は何ですか?

    -データを平均0、分散1に標準化することで、変数のスケールの違いをなくし、データ間の比較をしやすくすることができます。

  • 相関関係と因果関係の違いは何ですか?

    -相関関係はデータの分布パターンの関連性で、因果関係は変数間のメカニズムが分かっている関係です。相関があっても因果がない場合があります。

  • グラフからどのような情報が読み取れますか?

    -グラフからは相関係数だけでは判断しにくい変数間の複雑な関係性を可視化できます。相関係数0でも関係がある場合があるので、グラフから関係性を確認することが重要です。

Outlines

00:00

📈 回帰分析の基礎

第1回目では、回帰分析の基本概念について説明します。この講義では、身長と体重などの変数間の関係を例に挙げ、2変数間の関係性を示す創刊の概念を紹介します。特に、散布図を使って、データ間の関係を視覚的に理解する方法に焦点を当てています。また、同時分布と周辺分布の違いについても触れ、データを理解する上での重要性を強調しています。

05:02

🔍 周辺分布と同時分布の比較

第2回目では、右肩上がりと右肩下がりの散布図を例にして、周辺分布と同時分布の比較を行います。平均値、分散、共分散などの統計量について説明し、それらがデータ解析においてどのように役立つかを解説します。共分散の計算方法とその解釈に重点を置き、共分散が単位に依存することや、相関係数の導入について触れています。

10:05

🔢 相関係数の重要性と限界

第3回目は、相関係数の重要性とその限界に焦点を当てています。相関係数が0の場合、変数間に直線的な関係がないことを示しますが、他の形の関係が存在する可能性があることも指摘しています。また、相関係数が因果関係を示すものではないことや、相関関係と因果関係の違いについても詳しく説明しています。

15:11

📐 回帰分析の応用

第4回目では、直線回帰分析の応用について説明しています。最小二乗法による直線の当てはめ、回帰係数の意味、残渣の概念、そして予測値と実測値の差異について詳しく解説しています。また、データの標準化の重要性と、回帰分析におけるさまざまな統計的指標の役割についても触れています。

20:13

📊 回帰式の評価と解釈

第5回目は、回帰式の評価と解釈に重点を置いています。残差平方和の最小化、偏微分による最適解の求め方、回帰係数の計算方法、そして回帰式がデータにどの程度適合しているかを評価する方法について説明しています。さらに、相関係数と回帰式の関係、および回帰直線とデータポイントとの関係についても説明しています。

25:14

🤔 回帰分析の誤解と注意点

最終回の第6回目では、回帰分析に関する一般的な誤解と注意点について話しています。特に、回帰係数の逆数関係、相関係数の解釈の誤り、そして相関係数が因果関係を示さないことについて詳細に説明しています。また、回帰分析の実践的な応用例として、身長と体重の関係に焦点を当て、回帰直線がデータポイントを通過する理由についても説明しています。

Mindmap

Keywords

💡回帰分析

回帰分析は、変数間の関係性をモデル化し、予測や因果関係の推定に利用される統計手法です。この講座では、回帰分析の基本から応用までを4回にわたって解説しています。例えば、身長と体重の関係性を分析することで、身長から体重を予測するモデルを構築することが可能です。

💡最小二乗法

最小二乗法は、観測データとモデル予測値との差(残差)の二乗和を最小にするようなパラメータを求める方法です。回帰分析において、直線や曲線をデータにフィットさせる際に広く用いられます。この講座では、最小二乗法を用いて回帰直線を求める方法について解説しています。

💡散布図

散布図は、二つの変数の関係性を視覚的に表現するグラフです。点の分布によって、変数間の相関の強さや傾向を把握することができます。この講座では、身長と体重のデータを例に散布図を用いた解析方法を説明しています。

💡共分散

共分散は、二つの変数の変動の傾向の類似度を測る統計量です。正の共分散は変数が同じ方向に変動する傾向があり、負の共分散は逆の傾向があることを示します。講座では、共分散を用いて変数間の関係性を分析する方法について説明しています。

💡相関係数

相関係数は、二つの変数間の線形関係の強さと方向を示す指標です。-1から1の間の値を取り、1に近いほど正の強い相関が、-1に近いほど負の強い相関があることを意味します。この講座では、相関係数を計算し、変数間の関係性を評価する方法を紹介しています。

💡因果関係

因果関係とは、ある変数(原因)が別の変数(結果)に影響を与える関係を指します。相関関係があっても、必ずしも因果関係があるわけではありません。講座では、相関関係と因果関係の違いについて議論し、誤解を避けるための注意点を説明しています。

💡標準化

標準化は、異なる尺度のデータを統一的な尺度に変換する処理で、データの平均を0、標準偏差を1にすることです。これにより、異なるデータセット間での比較が可能になります。講座では、標準化したデータを用いた分析の利点について解説しています。

💡残差

残差は、観測値とモデルによる予測値との差です。残差の分析は、モデルの適合度を評価し、予測の精度を向上させるために重要です。この講座では、残差を最小化することを目的とした最小二乗法の説明が含まれています。

💡回帰式

回帰式は、変数間の関係を数式で表したもので、回帰分析によって求められます。この式を用いて、一方の変数の値から他方の変数の値を予測することができます。講座では、最小二乗法による回帰式の導出方法とその意味について解説しています。

💡寄与率

寄与率は、回帰分析において、独立変数が従属変数の変動をどれだけ説明できるかを示す指標です。値は0から1までの範囲で、1に近いほど高い説明力を意味します。この講座では、寄与率の計算方法とその解釈について説明しています。

Highlights

回帰分析は同時分布と周辺分布の違いが重要である

相関係数は標準化したデータの共分散であり、プラスマイナス1の間の値を取る

相関があるからといって因果関係があるとは限らない

相関係数0でも直線ではない関係がある可能性があるため、グラフを描いて確認することが大切

データをグループ分けすることで相関が現れる場合がある

最小二乗法は残差平方和を最小にする直線を求める手法である

直線の傾きは共分散を説明変数の分散で割った値に等しい

残差の標準偏差が小さいほど直線の当てはめが良好である

相関係数の2乗が寄与率と呼ばれ、後の重回帰で重要な意味を持つ

相関係数と残差の標準偏差には関係があり、相関が大きいほど残差が小さくなる

変数を入れ替えた直線回帰式は逆数の関係にならない

相関係数が±1のときのみ、変数を入れ替えた直線の傾きが逆数関係となる

知らずに変数を入れ替えると間違いをしてしまう可能性がある

Transcripts

play00:16

この講座は回帰分析ということでお話をさせていただきます

play00:22

回帰分析ですが

play00:24

だいたい4回に分けましてこんなお話をします1回目が創刊と回帰第2回目が左右方と

play00:31

最小二乗法

play00:33

3回目がた公式回帰4回目が重回帰分析ということで

play00:40

主に4つの話題についてお話をしますが概ね30分ずつ

play00:45

ということを予定しております

play00:47

最後まで聴いて頂ければと思います

play00:55

まず第1回目です

play00:57

第1回目は階層間と回帰というお話をいたします

play01:05

創刊というのは2つの変数の間に関係があるかどうかの指標です

play01:10

身長と体重の関係を言えば背の高い人は低い人よりは重い傾向がありますそれから世帯

play01:17

が食べる量と食費

play01:19

これも世帯の人数

play01:21

に関係して量が多ければ食費がかさみます

play01:25

企業の規模と従業員数これもだいたい関係がありますまあ中にはあの一人でも年商何十

play01:32

億なんていうかと思いますから必ずしもそうではないんですが概ねこれが成り立つと

play01:36

思います

play01:37

それから従業員数と売り上げこれも従業員を養っていくためには売り上げがそこそこ

play01:43

ないというのはありやしない

play01:45

ことができませんので当然こういうことが成田しますそれから走行距離とガソリン消費

play01:50

量これも関係のあるお話です

play01:54

創刊という話題をまずお話しいたしますが一つの例として

play02:00

20人の生徒の身長と体重の例を挙げます

play02:04

これはデータの例ですあまり細かくデータを見ていても仕方がないと思いますが

play02:10

変数が2つですので二次元度データの例になります

play02:14

play02:15

縦の方に20人分並んでいますから答えが20人

play02:20

変数が2つという時のお話になります

play02:25

グラフに書いてみました散布図といいますがこの散布図を見ますと

play02:31

まあ右肩上がりというんでしょうか背の高い人が体重があるということがおおむね

play02:37

わかると思います

play02:38

ここで実は2つ重要なお話をいたしますそれは

play02:43

buzz ですね一つはここの三発で描かれている

play02:49

これも一種の点の分布になるわけですがこれは同時に2つの変数表していますので同時

play02:56

分布と言っています

play02:58

でそれをですね右側のほうに寄せてしまいますと

play03:02

身長は全く気にしないですべて体重で

play03:09

データを見ているということもそれからこれを下の方に落としてヒストグラムを描いて

play03:14

みますと

play03:15

これは体重を気にせずに身長だけで分布をとっていることになります周辺に落とします

play03:21

のでこういう分布のことを

play03:23

周辺分布と言っていますで実は我々が生活している場でい

play03:29

いろいろなものを観測していると思いますがほとんどが周辺分布の観察だと思います

play03:35

なぜかと言いますと今身長と体重というにあげましたけれど

play03:38

身長体重視力それから張力とか色々な嵐 feat のものをですね

play03:44

人間の

play03:46

指標として使えるわけですがそれらうちのいくつかはすべて

play03:52

考えないで集計してしまってて身長と体重だけで人を見ているということになりますの

play03:58

でこれも実が者資源の分布の中の

play04:02

周辺分布ということになります

play04:05

で周辺分布なんですが身長体重ちょっと外して x と y という2つの変数に

play04:10

置き換えてしまいました

play04:11

なぜこんなことをしたのかといいますと

play04:16

見ていただくと分かると思いますが

play04:20

左右逆転させた分布です

play04:24

右側に落としたときには周辺分布がこうなりますが

play04:29

それから下に落としたときの周辺部武功なりますが実はもう一度戻していますけれど

play04:34

元々のこの分布と新しく作った分布で周辺分布は全く同じです

play04:41

どこが違うかというと右肩下がりになっています祭をひっくり返しましたので周辺分布

play04:47

で我々が観測しているというのは実は

play04:50

うん的にこういうところだけ見ていることになります先ほど言いましたけれども

play04:54

あのいろいろな指標がある中で身長と体重だけで見ていることになりますのでその中身

play04:59

は実はもっと複雑で

play05:01

なかなかあの思って周辺だけではわからないことがあると思います

play05:08

同時に両方を並べてみましたこれで家の今言ったことがわかっていただけると思います

play05:13

が左側は右肩上がりの分布です

play05:17

右側は右肩下がりの分布です周辺分布を支える作ってみるとどちらも同じ周辺分布に

play05:23

なりますから

play05:23

中編分布だけ見てですねこれはこうだという結論を出すことは

play05:28

実は難しいわけですでは左側と右側の区別をするにはどうしたらいいか

play05:34

でそこの中でまず特徴を表す量というして一つの変数の場合を一度おさらいをしてい

play05:40

ます

play05:41

えっと皆さんご存知だと思いますが平均ですね

play05:44

平均値と言っても良いと思いますそれから分散

play05:48

それからへ

play05:51

これは x と y と両方ありますので x-平均街の平均 x の分散はへの分散

play05:57

ということでそこにあるような記号を使っています

play06:02

それからあの m *と書きましたけど実はこれは母集団の場合は

play06:10

データの個数 n ではある

play06:13

標本の場合は n -1で割るということが気になる人もいると思いましたので一応お

play06:19

断りをしてあります

play06:20

これがあの子この場ではですねどちらにしてもあまり影響はないお話をしていますので

play06:28

簡単のために全て n だで割るということに統一をしております

play06:32

さて先ほどの話です左側の図とミーハーアールズをどうやって区別するかなんですが

play06:38

ここのところの下に共分散と書いてある式を見ていただくとわかりますが平均を引いた

play06:48

play06:48

変数の値同士の掛け算です

play06:53

x ばを引いたものドライバーを引いたものとの席になります

play06:56

そうしますとどういうことになるかといいますと

play06:59

ここの領域ですね

play07:03

平均よりも x が大きくて

play07:06

ワイも平均よりも大きいですから x がプラスでは m フランスの領域です

play07:11

こちらは x の平均よりも x が小さくて

play07:16

by が+ですからマイナスプラスというふうにまあ書いてありますでここの部分です

play07:22

がそれが+

play07:23

プラスになるかマイナスプラスになるかで当然この席の部分の値が変わりますそれを

play07:30

やってみますと

play07:31

ここはマイナスの領域席はココアプラスの領域これもプラスの僚機これマイナスの領域

play07:36

です

play07:37

左側と右側でプラスマイナスの位置は同じです第一象限がプラスで

play07:42

第三小華

play07:43

がやはりプラスになりますそうするとこんな事が言えるわけですねこちらのような柄の

play07:48

場合にはプラスの領域にあるベータの個数が多いですから

play07:52

sx 愛と書いたこれは当然フラッシュになります

play07:57

で逆に右肩下がりの場合はマイナスの領域のデータの方が多いですから

play08:02

右肩下がりの場合は sx ナイフになりますというわけで xxi の政府で右肩

play08:11

上がりかそれか3

play08:13

方下がりかということがわかりますのでこれはあの分散

play08:18

平均のほかにもう1つ付け9あった

play08:21

統計の指標になるということになります

play08:25

ところがこの指標ですが

play08:27

残念ながらですね虫これ身長体重だとすると

play08:31

センチメートルかけるキログラムですのでもしセンチメートルを

play08:35

メートルで表したらどうなるかというと

play08:39

100分レジになります数値そのものに意味がなくなってしまいます

play08:43

というわけでそれでは何かこう標準化できるものがないかというのが次のが大事になり

play08:48

ます

play08:49

もう一度おさらいを致しますと右肩上がりの場合は sxi が0正のせいですねそれ

play08:55

から左

play08:56

右肩下がりの場合は sx は

play08:59

画風になります

play09:00

まぁこれで実はわかりますが今言いましたように共分散は単位によって大きさが変わり

play09:06

ますので絶対値にあまり意味がありません性格かっていうことだけになってしまいます

play09:10

それでこういうものを作ります

play09:14

それが相関係数なんですが相関係数はこんな形をしています

play09:19

上が共分散と同じ項目が入っていて下の方は分散と同じような帰っていますもしこれ n

play09:25

分の1をここにかけてやれば下は分散のルート腕開いたものこれは分散のルートを開い

play09:34

たものこちらが共分散になりますので共分散を実はのルートで開いた後

play09:39

あってな標準偏差という意味を持ちますので共分散をそれぞれの標準弊社で割ったこと

play09:44

になります

play09:45

じゃあどうしてそれが都合がいいかと言いますと上がもしキログラムとセンチメートル

play09:49

だとするとしたがキログラムの事情ですしでこちらがセンチメートルの事情ですから

play09:55

ルートで開くとキログラムをかけるセンチメートルになって

play09:58

単位が見事に消えてしまいますというわけで相関係数というのが実はこういう形を表す

play10:05

右肩上がりか

play10:06

右肩下がり花の形を表するに非常にすぐの良い指標ということになります

play10:14

まあただ気をつけないといけませんのはいくつかここらへんあのこの辺にこう書いて

play10:18

ありますが一番右の下の図ですねこれ

play10:23

アン=0実はこういう場合相関係数ゼロになります

play10:28

いろいろな台を

play10:30

述べてあるんですが一番上の左側 r =市で直線になる場合右側は右肩下がりで直線

play10:37

になっている場合には r が-1になります

play10:40

との途中はちょうど好データが広がっているようなケースですが

play10:44

r =0のところが2つ書いてあると思いますけど一番下の r =0左側は

play10:50

まんまるにデータがなくてますので左右対称上下対称ですのでプラスマイナスの個数が

play10:56

ぴったり合いますそうすると打ち消しあいまして0になってしまいますそれから右側の

play11:02

場合なんですが右側の場合はこれは左右対称ですのでやはり

play11:07

相関係数が0になってしまいます

play11:10

で相関係数が市というときには直線だということがわかります

play11:16

0.7ぐらいでしたら右肩上がりだということがわかります

play11:19

そこまではいいんですが r =0だったらじゃあ

play11:24

x と y 関係がないのかというとそうでもないわけですね

play11:28

その一番右の右の下の隅のところを見ていただくとこういうケースですと

play11:34

r はエックスが増えていくにしたがって

play11:37

まず最初は減少するんですがあるところから逆転して増えていくような形をとりますの

play11:43

でこれでも r =0になります

play11:46

従いまして創刊というのを見る

play11:48

時には r がゼロになったら

play11:51

それは

play11:52

xy が関係がないんだという言い方ではなくて

play11:56

関係があるかもしれないというですねそういうな見方をしていただきたいと思います

play12:02

これはグラフを書かないとなかなかわかりませんのでグラフを書いていればということ

play12:07

なんですがそれからの数学的に証明したいというのが好きな人のために

play12:13

こんな式を少し書いてみました

play12:28

2通りプラスマイナス1になるということがだいたいお分かりになったと思います

play12:34

さてデータの標準化という話をまずいたしますこれは後々後の方でも使うことがあり

play12:40

ますので

play12:41

となずあのういうと部位なんですが

play12:45

いうは x

play12:48

の例たから平均値を引いて標準偏差で割ったものです

play12:54

v は y のデータから平均を引いて標準偏差で割ったものです

play13:00

でそうしますとどちらも

play13:03

変数も平均値が0になります

play13:06

それから分散が1になります

play13:10

で共分散が実は相関係数と全く同じものになってしまいます

play13:15

というわけでデータを標準化しますと先ほどいっ

play13:19

雷何度か出てきました共分散が実は相関係数その頃になります

play13:24

逆に言うと相関係数というのは標準化したデータの共分散などと

play13:29

でおまけに相関係数はプラスマイナス1の間の値を取りますので

play13:35

まあいろんな意味で何かの指標になるということになります

play13:40

さて a

play13:41

創刊に関して

play13:43

こういう注意を

play13:45

入っておかないといけないと思いますが

play13:47

相関があるということは実は因果関係があるということではないですね

play13:52

データ型の二間右肩上がりとか

play13:56

右肩下がりに並んでいたというだけで中身についてはと言いません

play14:02

例えば

play14:04

因果関係というのはどういうことかというと変数の関係のメカニズムがある程度わかっ

play14:09

ていてこれをこうすればこうなるというお話がいいながら家です

play14:13

一定の収入での資質とチョしくっていただいた分これは関係あります

play14:17

それから自動車の走行距離とガソリン代というのも関係あります

play14:21

走らなければですし走ればあのお金かかりますというこれは今関係ですね明らかにした

play14:27

相関関係の一つの例なんですが例えば

play14:31

潮の満ち干と道路の混み具合ですが

play14:34

だんだんこうあさあですね7時8時9時と

play14:38

時間が経つにしたがって例えば品川埠頭の町営が上がってきた

play14:43

品川のあたりの交通業をだんだん増えてきたこれ

play14:47

そのままプロットしてやりますと相関があることになりますが

play14:51

月の位置が変わって15日たしますと

play14:54

多分

play14:56

逆転しますので

play14:58

委員が関係ではないんですね

play15:01

データの見かけのつながりですそういうものが

play15:04

相関関係ということでどちらの方が広いかといいますとそう寒霞渓脳が当然広い画面に

play15:10

なります

play15:11

なぜかと言いますと相関関係がなくて因果関係があるということをなかなか難しい

play15:16

でしょうが因果関係があれば

play15:19

相関関係は

play15:20

多分あるでしょうただしちょっと画像を戻しますが

play15:25

先ほどのこの右下の r =0のようなケースですね

play15:29

こういうケースもありえますので単純ではありませんが創刊というのは実は1000形

play15:35

の関係と言っていますが直線にどれだけ近いかを表す一つの指標です

play15:40

こういうふうにあのをれている場合には残念ながら相関係数だけでは

play15:44

をれていると融合

play15:45

は分かりません絵を書かないとわからないお話になります

play15:53

一応創刊に関して少しまとめてみました相関係数が0のとき

play15:58

直線関係はないしかし直線ではない関係があるかもしれない

play16:04

グラフを描いてみるのが重要です上野

play16:08

放物線みたいな絵のようにデータが並んでいる場合にはこれは明らかに関係があります

play16:14

が相関係数という先ほどの指標でみると0になってしまいます

play16:19

それからもう一つ重要なのは右のような右の下の図のような場合ですねこれは

play16:25

play16:25

2つのグループがあって例えばちょっとあのピンクっぽく衣をつけているのが女性の

play16:32

グループで

play16:33

ブルーの方が男性のグループだとします両方一緒にして人々はなんて話をするとこれは

play16:39

相関がないように見えてしまいますが

play16:41

男性と女性に分けると右肩上がりと右肩下がりで明らかに違う関係があるということ

play16:47

わかりますこれ一緒にするとわからなくなりますね

play16:50

構造的に実は分けた方がいいということもよくあります

play16:53

学年ごとにへ

play16:57

データを取った場合にもこういう注意が必要です

play17:01

お互いに関係がなさそうに見えても実は関係がありそうに見えても実は関係がないのに

play17:08

ただ学年が進行するにしたがって

play17:11

例えば

play17:12

体力がだんだん上がっていくとかですね

play17:15

そりゃ学年信仰の体力なんですねそういうものもありますので

play17:19

これはまあできれば送別をしてグラフを書いてみるそうするとそういうことがわかり

play17:24

ます

play17:26

次に直線のあてはめのお話をいたします

play17:31

変数 xi が同時に観測されていて先ほどの相関がある程度高いという場合です

play17:38

そうすると

play17:39

もしかしたらは= a + b x 直線が当てはまるかもしれない

play17:44

そんなデータになったとしますこれを0たに直線を当てはめて y の値が欠けている

play17:50

ところをないそうするあるいは直線から外れたデータを検討するあるいは図りやすい

play17:56

変数から測りにくい

play17:58

変数の値を推測する

play17:59

というような時によく使われますよくということでもないんですがまあそういうケース

play18:04

も考えられます

play18:05

x というのはこれは説明変数と言ってましてこれではいを説明するという意味です

play18:11

x の値を与えてバイオある程度与えるということですね

play18:17

先ほどの身長と体重の例もう一度の声

play18:20

登場しましたグラフを書いてみますと

play18:26

単回帰あるいは直線回帰と言いますが直線を当てはめる時の

play18:32

回帰分析のやり方です係数は最小二乗法でも止めます a と b は最小二乗法と

play18:39

いうのは実はこういうことで

play18:42

とった

play18:48

これは現実のデータで x と愛同時に測ったものが後プロットされているとします

play18:53

そこに直線は違います

play18:55

直線を当てはめた時に

play18:58

個々のデータは x はここにあるわけですがこれから見たときに

play19:03

予測できるのは数値がここならけどねそれ今場合ハットと帰っていますそれから本当の

play19:10

データ実測値と言いますがこれここになります

play19:13

この竿残渣と言っていますで残渣が一番小さくなるように

play19:17

食洗を当てはめております極端な事言いますとこの直線を間違えてこの辺に変えてこう

play19:22

いう直線にし

play19:23

だとするとこれは完全にずれてしまいますので残渣はとても大きくなりますそれに比べ

play19:28

て直線後きちんと当て腹が良くなれば山差が小さくなりますのでそういうふうなことで

play19:35

残渣を小さくするようなことを考えます

play19:40

8 ei と書きましたのが山さで

play19:44

は実測値と予測値との差です

play19:49

まず残差平方和の定義ですが言い合いの事情のはです

play19:55

残渣の兵法のはですから残差平方和です

play19:59

q はそうすると y ハットを使ってこんな風に表すことができます

play20:06

で山さんヘーファーを最初にする ab を求めるということをやります

play20:13

残差平方和を最小にするというので最小自乗こと言っていますここからあとは偏微分や

play20:20

何か得意でない人にはあまりわからないお話だと思いますのでサッと流します

play20:25

わかる人が自分でやってみてください

play20:27

q を偏微分し米で偏微分しますそれから9誘いで偏微分します2つの変数で偏微分し

play20:34

てますから方程式が2つ出てまいります

play20:37

そうしますと連立方程式を解くことになります

play20:40

まああの数式いろいろ見ても多分わかる方とわからない方にここは彼ますのでここは

play20:46

ちょっと先に進んでしまいますが

play20:48

で答えはどうなるかと言いますと a に関しましては

play20:52

ばいばーー- bx バーという数式が選びます

play20:58

ただし b は下の方で定義されたも

play21:00

ので

play21:01

sx ないつまり x と y の共分散を sx の事情ですから

play21:07

x-分散で割るという形をしています

play21:10

先ほど身長体重で言いますと共分散はキログラムかける

play21:15

センチメートルです

play21:17

下の方の x もし x が慎重だとするとセンチメートルの事情です

play21:22

単位はセンチメートル分のキログラムになりますから

play21:26

1センチ増えると何キロ増えますかというような直線の傾きを表しますねこれでです

play21:33

から傾きに対応します

play21:37

で実際に身長体重の例で作ってみました先ほどの例ですか

play21:42

まぁこんな形になりまして傾きがだいたい

play21:45

b 法度ですが1.046それから

play21:50

by 切片になりますハットが-20719.95という

play21:55

これあてはめてやりますと

play21:58

概ねこのぐらいの身長の人はこんな体重になるだろうという体重の平均値が分かります

play22:11

ちょっと下に付いいう書いていたんですが表の数値から計算すると上のような値になり

play22:17

ます excel 上で求められたものと完全に一致しないことがあります

play22:21

これあの四捨五入したものを表記していますので

play22:24

この表そのまま写して計算すると微妙にずれる可能性あります

play22:32

えっと直線の傾きがこうなりましたエイムこうなりましたということで今

play22:36

計算しましたが

play22:42

今こうやったの横軸が慎重で縦軸が

play22:47

体重ということで傾きを出しました

play22:53

その傾きを出したりするときにあのエクセルでどうやるかというとこんな画面を出して

play22:57

下のところですね

play23:00

グラフに数式を表示するそれからグラフに

play23:04

r 地上

play23:05

地を表示するというところチェックを入れてやると

play23:09

ここのところは

play23:11

自動的にを変えてくれますこんな直線帰ってくれます

play23:15

それから近似色の数値も左上の方に出ていると思いますがそういうふうに出してくれ

play23:21

ますので

play23:22

まあこれは excel できますから是非

play23:25

適当なデータを自分で作って練習してみてくる

play23:30

て回帰式のあてはめの良さの尺度というのが重要になります

play23:35

実測値と予測値の相関係数が大きければ当然

play23:42

予測値から実測値をうまく推測できることになりますので相関係数が一つのポイントに

play23:49

なります

play23:50

というわけであの r という相関係数を作りますそれから

play23:55

r の事情したものですねこれを寄与率と呼んでいましてこれはここでは今天に直接

play24:01

関係ありませんがこの後のタコ

play24:02

押木会計の時に重要な役割を果たしますので

play24:06

まあそういうものがあるということだけ頭に入れておいてください

play24:10

直線回帰の場合には r はすっ

play24:14

そ普通の相関係数もスモール r の方と全く同じものになります

play24:19

これは by ハットが a hat + b ハット x というところから出てき

play24:25

ていますので

play24:26

x と y の相関というのとは違ハット度合いの相関というのが実は全く同じものに

play24:31

なるということですね

play24:35

で予測の良さの尺度ということでもう1つお話をいたします残渣が小さい方がいい

play24:40

それはの直線にデータがなるべく近くなるような直線を選ぶということですので小さい

play24:46

方がいい

play24:47

その残渣の標準偏差が小さい方がいい

play24:51

残渣を得ぬ-2で破って

play24:54

ルートを取ったものそれを標準濃さと言っていますえっとなぜ

play24:59

n -22かといいますと実はこれ a と b を推定するという2つの推定値が

play25:04

入っているので自由度が2つ落ちるということで n マイナスになっています

play25:10

て r と級の関係ですがそこにありますように

play25:13

そんな形になっていまして st というのはこれは

play25:17

えっと y そのもののバラ空き具合を表す指標では位の兵法がと呼んでいますその

play25:23

場合の兵法がをかけてやると残渣がこんな形になりますからこれ見ていただくとわかり

play25:28

ますが r 事情が12

play25:30

仕掛ければキューはゼロに近づきますある事情がゼロに近づけばキューは st と

play25:36

全く同じものになります

play25:37

つまりあの前のもともとのバラ好きに比べて残渣が大きいか小さいかっていうのは r

play25:44

嬢が大きいか小さいかということと関係しているということになりますので

play25:48

まあお互い無関係ではないわけですね

play25:51

r 事情というのはこれは標準化されたひとつの指標になります

play25:56

q は残渣ですが例えば体重の段差が大きいとか小さいとか言ってもですね

play26:02

残念ながらデータの数が多いと大きくなります

play26:07

それからキログラムを g に直すと専売の事情ですから10万倍になります

play26:13

というわけで数値そのものにあまり意味がなくなりますじゃあどこで比較するのかと

play26:18

いうと山さと元の場合の方の分散というか広がりの st ですねそれとの日で見て

play26:26

いるわけです

play26:27

元の y そのものの広がりに比べて

play26:30

残渣がどれだけ小さいかで相関が大きいかどうかということがわかります

play26:37

8最後にちょっとしたクイズみたいな問題を出しますが信長から体重を推測するという

play26:43

のでこんな風に式を使って

play26:46

最小二乗法で求めましたこういうふうに出てきました

play26:50

これ先ほどのグラフです

play26:54

問題はこういうことです

play27:00

実は回帰直線はデータの重臣

play27:03

つまり x バーとワイバーという平均値を必ず通しております

play27:08

ですから傾きだけわかればいいわけですがその傾き今 b にしていますけれど

play27:14

これはですねこういうことなんですが

play27:17

y マイナス

play27:19

らいばーぴコール

play27:22

b かける x - x バーという

play27:26

ふうに書き換えることもできますがこれを左右逆転させて x は x - x ば=

play27:35

y - viber に b の逆数をかけたものにしていいかというお話です

play27:44

一見良さそうに見えますので実はこれ使ってる人もいるみたいなんですが実はこういう

play27:49

ことになります

play27:52

2つの式を作っています

play27:55

y子0+ bxx = c + dy ですね

play28:00

つまり体重から身長を推測するというのが右側で身長から体重を制作するというのは

play28:06

左側です

play28:07

ビード d の関係は逆数だろうというのが先ほどのお話なんですが

play28:12

bd をかけてみますと実はえっ

play28:15

こういう形になりまして相関係数の事情になります

play28:19

ということでしょうか

play28:21

相関が1のときだけは逆数になりますがそれ以外の時は逆数でありません

play28:30

知らずに使えますと結構いろいろな間違いをしてしまいます

play28:34

と思ったよりも逆数の値は小さくなるわけですね

play28:39

いうことで

play28:43

相関係数がプラスマイナス1の時だけ

play28:47

b と d は逆数の関係になります

play28:50

ちょうどあのお時間が良いようですので第一回目はここで終わりにさせていただきます

Rate This

5.0 / 5 (0 votes)

Вам нужно краткое изложение на английском?